技術問答
技術文章
iT 徵才
Tag
聊天室
2024 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
12
0
AI & Data
今晚,我想來點經典NLP論文。
系列 第
12
篇
[D12] Dynamic topic models (Blei and Lafferty, 2006) 2/2
12th鐵人賽
victor.huang
2020-09-26 20:21:46
781 瀏覽
分享至
Key Points
前略。
資料集:
用 1881年 到 1999年 的 Science 期刊。(!)
資料源在
這裡
。
每年抽出 250 篇文章出來,總共三萬篇。
前處理:
stemming。
移除出現次數少於 25 次的文字。
最終字典大小:15,955字。
實驗1:
設定 20 個主題的模型。
以上的兩張圖來自於兩個主題,每張圖分成三部分:
(上):120 年來該主題的變化。
(下左):文字的後驗機率(每張圖三個字,注意三個字的量級不一定一樣(作者也沒給單位))。
(下右):每年相關的文章。
實驗2:
測試是否能基於時間點 t 的模型預測時間點 t + 1 的文章。
這裡的預測是用 variational bound 來衡量,算出下一年文章的 negative log likelihood 總和。
三種模型:
DTM (本文)
用過去所有年份的資料 (t0 ~ t) 訓練出來的 LDA 。
用過去一年的資料 (t) 訓練出來的 LDA 。
結果:
可以看到 DTM 的數值最低表現最好。
Thoughts
不知道是不是因為 t 是 t-1 的函數,每年的文字變化還蠻細微的。
蠻多重複的字一再出現,如 theory,有點好奇在 science 這樣的文本中,theory 這個詞不會出現在各個 topic 裡嗎?
Matter 這個詞逐漸式微,和下面的 nerve 被 neuron 比下去一樣。研究的客體總是單位越來越小,越來越精確?
quantum 這個詞展現了什麼叫做文藝復興,應該也要拿 ML 相關的文章來做做看,看是否 Neural Network 也是這樣的趨勢。
留言
追蹤
檢舉
上一篇
[D11] Dynamic topic models (Blei and Lafferty, 2006) 1/2
下一篇
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
系列文
今晚,我想來點經典NLP論文。
共
17
篇
目錄
RSS系列文
訂閱系列文
1
人訂閱
13
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
14
[D14] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014)
15
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
16
[D16] Emotion Intensities in Tweets (2017) 1/2
17
[D17] Emotion Intensities in Tweets (2017) 2/2
完整目錄
直播研討會
{{ item.subject }}
{{ item.channelVendor }}
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
1064
組
團體組數
40
組
累計文章數
22195
篇
完賽人數
600
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
windows
php
c#
windows server
linux
css
react
vue.js
熱門問題
請問內網IP如何轉外網IP?
兩端防火牆使用IPSEC互PING之問題
如何寫公式才能利用excel 觸發一個數據時傳送一個訊息給 自已的line呢?有沒有可以用其它方式,來取代line notify 的方法,因為line 開始收費
新手學習編程,哪種編程語言好?
Windows7升級Windows10後網路功能異常
python爬蟲 動態生成網頁104人力銀行
區域網路問題提問
vmware 虛擬機(windows)裡顯示使用容量與實際檔案容量不符合
防火牆與DNS請教
2台 Hyper-V 2008 R2 叢集主機(硬體規格相同), 如何加入一台新機? 謝謝.
熱門回答
請問內網IP如何轉外網IP?
新手學習編程,哪種編程語言好?
防火牆與DNS請教
Fortigate 50B 重置密碼
區域網路問題提問
熱門文章
每日一篇學習筆記 直到我做完專題 :( [Day32]
每日一篇學習筆記 直到我做完專題 :( [Day33]
每日一篇學習筆記 直到我做完專題 :( [Day34]
每日一篇學習筆記 直到我做完專題 :( [Day35]
隨時切換 WINDOWS 右鍵新舊版選單
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}